Los valores perdidos —también llamados missings— son ese invitado inesperado (y a veces incómodo) que siempre aparece en tu dataset. Aunque muchos los ven como un simple estorbo, la forma en que los manejes puede marcar la diferencia entre un análisis sólido y conclusiones engañosas. En esta entrada revisaremos:
- Las tres tipologías de missing values (MCAR, MAR y MNAR).
- Las estrategias más frecuentes para lidiar con ellos.

- ¿Por qué se pierden los datos?
Antes de preocuparnos por cómo rellenar huecos, conviene entender por qué aparecieron. Las causas frecuentes incluyen:
- Errores técnicos (sensores que fallan, formularios mal diseñados).
- Ausencias humanas (encuestados que omiten preguntas sensibles).
- Problemas logísticos (muestras extraviadas en laboratorio, transferencias de bases de datos incompletas).
La clave está en determinar si la pérdida ocurre al azar o responde a algún patrón latente. Ese diagnóstico nos llevará a los famosos conceptos MCAR, MAR y MNAR.
- Tipos de valores perdidos
2.1 MCAR – Missing Completely At Random
- Definición: Todos los registros tienen la misma probabilidad de faltar; la ausencia no depende de ninguna variable, medida o no.
- Ejemplo ilustrativo: Una báscula se queda sin pilas de vez en cuando. El fallo ocurre de forma aleatoria y no se relaciona con el peso real de la persona ni con la hora del día.
- Implicaciones: Analizar solo los casos completos produce estimaciones sin sesgo, aunque con menor potencia estadística.
2.2 MAR – Missing At Random
- Definición: La probabilidad de que falte un dato puede variar, pero esa variación se explica plenamente con las variables observadas.
- Ejemplo: Un estudio sobre actividad física usa dispositivos que requieren calibración en superficies duras. En suelos blandos fallan más. Si registramos la dureza del suelo, dentro de cada categoría los fallos son aleatorios.
- Implicaciones: Es la suposición que sustenta la mayoría de técnicas modernas (p. ej. imputaciones múltiples). Necesitamos incluir en el modelo todas las variables predictoras de la ausencia.
2.3 MNAR – Missing Not At Random (o NMAR)
- Definición: La ausencia depende de variables no observadas o del propio valor perdido.
- Ejemplo: Encuesta salarial donde los ingresos más altos rehúyen responder la pregunta de su sueldo.
- Implicaciones: El enfoque clásico no basta. Abundan las estrategias de análisis de sensibilidad o la recolección de datos adicionales.
- Estrategias para tratar los valores perdidos
3.1. Métodos simples de eliminación
3.1.1. Eliminación por casos completos (listwise deletion)
Consiste en eliminar aquellas observaciones que contengan algún valor nulo en las variables incluidas en nuestro conjunto de datos.
Pros | Contras |
Fácil de implementar, sin modelado adicional. | Pérdida de potencia; sesgo si no se cumple MCAR. |
Cuándo usar: pocos missings (< 5 %) distribuidos al azar.
3.1.2. Eliminación por pares disponibles (pairwise deletion)
Permite calcular cada estadístico con el máximo de casos posibles. Usa toda la información disponible para cada par de variables; estimaciones coherentes bajo MCAR.
Pros | Contras |
Aprovecha más datos que la eliminación total. | Riesgo de obtener matrices de covarianzas no positivas definidas; diferente n para cada correlación. |
3.2 Imputaciones rápidas
3.2.1 Media / moda / valor fijo
- Ventaja: velocidad; ningún algoritmo complejo necesario.
- Desventaja: Subestima varianzas y atenúa correlaciones.
- Ejemplo: Rellenar sueldos faltantes con la media afina artificialmente la distribución salarial.
3.3 Imputaciones basadas en modelos
3.3.1 Imputación por regresión determinista
- Ajusta un modelo con los casos completos.
- Predice los valores faltantes.
El problema es que no añade ruido, por lo que la varianza residual desaparece.
3.3.2 Imputación por regresión estocástica
Igual que la anterior, pero se suma un término aleatorio tomado de la distribución de residuos. Así se preserva la variabilidad natural.
3.3.3 Imputación múltiple (breve mención)
Repite el proceso estocástico varias veces (m datasets), analiza cada uno y luego combina los resultados. Es el gold standard cuando MAR es una suposición razonable.
3.4 Métodos específicos para series temporales
3.4.1 LOCF / BOCF
- LOCF (Last Observation Carried Forward): se arrastra la última medición válida.
- BOCF (Baseline Observation Carried Forward): se utiliza la medición inicial.